查看原文
其他

DNA存储 | BT与IT融合的黑科技与未来产业

Kathy 基因慧 2022-10-30


数字生命健康产业创新服务基因慧


伴随深海深空、产业互联网、大规模健康队列研究的需求,目前的存储介质即将无法满足数据生产需求,DNA存储技术适时出现。2021年,微软连同Illumina、西数等机构成立了DNA存储联盟,其中成员DNA Script近期获得2亿美元融资。恰逢“DNA数据存储”前沿论坛举办,基因慧基于会议内容总结如下。更多详情敬请关注即将发布的《DNA存储蓝皮书》,欢迎储存/算法/IT/通信/合成等机构参与合作。


文章 | 基因慧  编辑 | Kathy 审核 | Mark

关键词 | DNA存储



大数据需求推动DNA存储发展     



图1 The World Keeps Creating More Data

(来源/IDC)



2021年,据IDC预测,2020年到2025年,全球数据量每年增加23%,而2025年全球数据量将达到180 ZB(1ZB=1024EB,1EB相当于一部可以播放36,000年的高清视频)。根据与会专家武汉病毒所刘翟研究员演讲,有97%的数据由于存储技术和存储规模的限制而无法被保存。


因此”互联网数据中心(IDC)技术转型,以及超高密度存储技术代表着未来的方向“。

 

而目前数据存储介质已经无法适配目前便捷、大规模的数据生产,主要包括:

  • 市场缺乏信息密度更高的存储介质;

  • 数据存储的能源利用率低,消耗能源偏高;

  • 存储介质的使用年限较短,抗干扰性弱;

  • ……




DNA存储是什么? 


DNA存储定义

 

DNA存储技术,是基于组成DNA的四种碱基(A、C、G、T)来映射0和1,通过信息编码来进行存储。


相对传统介质(如硬盘),DNA存储基于分子流存储信息流,加上它的非周期性晶体等结构特点以及生物属性,因此DNA存储极其稳定、存储密度高且可以超长期存储。



图2 DNA存储领域进入快速发展阶段(徐讯 研究员)

(来源/“DNA数据存储”前沿论坛)



尽管DNA存储刚刚进入国人视野,但是早在1965年,其概念就已萌芽;2012年,DNA存储原理验证实现重大突破,紧接着霍夫曼算法、DNA喷泉码等算法的开发以及微软、华盛顿大学等机构的参与,快速推动了DNA存储的技术研发。



DNA存储主要包含6个步骤:编码、合成、存储、检索、测序、解码。



DNA存储核心技术——编码


其中,编码、合成及测序为DNA存储的核心技术,重难点是编码与合成,载体包括电化学芯片设计等

 

DNA编码的本质是将代表的信息原始数据1和0转换成组成DNA分子的碱基序列的过程。其中,碱基指腺嘌呤(A),鸟嘌呤(G),胞嘧啶(C)和胸腺嘧啶(T),是核酸的主要成分,他们在DNA分子内以互补配对原则稳定存在。



图3 DNA数据存储使用的四种转码方法举例

(来源/GigaScience



DNA编码方法有很多种,以George Church早期最简单的模式为例,将00分配给A,将01分配给T,将10分配给G,将11分配给C。使用这种编码方案,数字串0110110010将由碱基TGCAG编码并合成。


目前,DNA编码算法有Spiderweb算法、四进制Huffman直接编码法等;编码系统有:华大的YYC双阴阳编码系统、中科碳元的“悟空”编码系统等。



DNA存储核心技术——DNA合成


DNA合成是DNA存储重要步骤之一,合成方法有三种:

  • 化学合成法(固相亚磷酰胺化学法);

  • 酶促合成法;

  • 微阵列DNA合成法。



图4 DNA人工合成技术(谢思佳 资深工程师)

(来源/“DNA数据存储”前沿论坛)


近年来,市场正逐步开发支持化学合成DNA的新工具和技术,例如电化学芯片合成法、喷墨打印合成法、微流体系统和数字光刻技术等,这些新工具和技术决定了合成序列的长度、生产速度和成本等。



DNA存储核心技术——DNA测序

 

DNA测序是读出数据的重要步骤,随着不同技术的迭代,目前市场上主流测序技术有Sanger测序、Ion Terrent电化学测序、可逆末端终止测序、联合探针锚定聚合测序、纳米孔单分子测序等。


不同测序技术有其优劣势,目前以Illumina、MGI、Thermo Fisher三家厂商的NGS测序仪;纳米孔单分子测序仪方面以PacBio和Nanopore为主,国内的齐碳科技明年即将量产。



DNA存储核心技术——解码


DNA解码与编码相对应,部分技术中需要检索。原理如下(以化学合成为例):


  • 首先,采用算法将信息字节转换成为DNA序列;然后机器合成DNA序列, 产生多个序列拷贝。以磷酰胺为基础的固相柱上合成或固相介质上阵列合成,合成后的 DNA 材料可以克隆、并存储在生物细胞内(体内)或者体外(更常见);


  • 其次,通过检索选择目标DNA,再使用映射到编码过程中所生成特定数据项的引物和PCR扩增,获得目标DNA,再通过测序仪获取DNA对应的序列;


  • 最后,通过映射规则将序列转码成原始的0和1字节信息。




DNA存储的应用和产业培育   


由于超高密度、极其稳定、超长期存储等特点,同时基于分子流代替介质存储信息流,DNA存储能够真正实现BT与IT的融合,其中BT包括分子材料、分子诊断、基因治疗、生物安全等;IT包括通信、存储、算法、DNA计算等。因此被相关专家认为是变革性技术之一。


DNA存储的应用还在早期,但是由于以上技术特点,以及BT和IT领域的融合,有极其广阔的应用空间。根据与会专家武汉病毒所刘翟研究员介绍,包括:


  • 新型IDC模式;

  • 新型数据信息加密;

  • 实体化标签(精准医学的溯源与信息标签);

  • 信息保护及保密;

  • ……



尽管应用还在早期,但是随着头部IT及BT机构的参与,以及近年来技术(主要是编码技术以及合成技术)迭代,产业方面正在快速孕育。


国内DNA初创机构中科碳元获得千万元投资,2021年,微软连同Illumina、西数等机构成立了DNA存储联盟,其中成员DNA Script近期获得2亿美元融资。



 

DNA存储的发展趋势      


由于DNA存储技术发展尚在早期,仍有很多问题未解决,根据与会专家清华大学汪小我教授介绍,包括:

  • 噪声来源多样;

  • 数据访问难;

  • 读写成本高;

  • ......


其中,成本高是最核心的难点,也是影响产业发展的关键。短期是合成成本,与会专家提供的建议仿造NGS思路提高并行化和试剂研发。长期是算力成本,需要算法设计和资源投入,当然包括芯片设计,需要分布走(根据北大钱珑助理研究员、华大生命科学研究院徐讯研究员等与会专家观点):


  • 开发高效的底层生化技术(合成、测序),进一步降低成本;

  • 深入研究物理层信道编码;特别是信息纠错;

  • 数据结构与数据库设计;

  • 可稳定存储大规模数据存储体系;

  • 基于DNA链计算的数据调控功能,例如基因编辑工具的自动存储于更改;

  • 开放工业标准;

  • ……



20年间,DNA测序经历了7个数量级的成本降低,正快速应用于医疗服务和新药研发等方面。与会专家表示,DNA合成技术降低5-8个数量级,将从根本上推动DNA存储的转化应用;当然,还需加以信息编码、信道、算力等方面的共同协力,将科学家的梦想照进未来数字技术的现实,展现国际竞争力。


由于能力和篇幅局限,以上信息有所不足的地方敬请指正补充。我们将收录到即将发布的《DNA存储蓝皮书》,欢迎存储、算法、IT、通信、合成等相关企业参与蓝皮书合作。


同时,欢迎大家在评论区提出对DNA存储的需求及趋势展望,精选留言者将有机会获得将在今年发布的《2022基因行业蓝皮书》纸质版一本。

(注:以上内容未经与会专家审核,仅供学习参考。)







《2022基因行业蓝皮书》正招募联合发布单位

添加微信 jiyinhui_1 或邮件联系 info@genonet.cn

2021基因行业蓝皮书回顾

基因大数据报告回顾






·扩展阅读·

DNA数据存储

基因简报丨字节跳动投资合成生物学公司

基因行业2021年盘点(四)



【声明】为了服务基因及数字生命健康科技推广、产业创新及产学研用连接,基因慧秉持专业、赋能、中立的立场收集、分析、发布信息或专家见解。但由于时效性及行业特殊性,所刊登内容仅供研究参考,不作为决策依据;本文相关信息不代表基因慧的观点;基因慧平台刊登的原创内容的知识产权为“基因慧”商标拥有者及相关权利人所有;欢迎转载,转载请申请并注明来源。欢迎个人及机构投稿及合作。

关于我们

基因慧是一家数字生命健康产业创新服务平台,创立于 2016 年。创始团队深耕行业十余年,创建了产业信息数字化平台YourMap®,为政府、研究机构及企业提供产业咨询及科技推广服务,践行“使连接产生价值,用数据看见未来”的理念,与90%知名基因机构建立了合作,逐步拓展生命科技及产业创新服务。


▷ 国发改《战略性新兴产业发展展望》白皮书执笔

▷ 中国抗癌协会肿瘤标志专业委员会战略合作单位

▷ 中国遗传学会生物产业促进委员会委员

▷ 参与组织机构发布多项行业共识和团体标准

▷ 连续四年发布基因行业蓝皮书

▷ 组织基因检测联盟(筹)首届、第二届会议

▷ 主办数字健康私董会、大湾区生命健康创新论坛

▷ 受邀为华西、因美纳、华大、上海交大等作报告

▷ 广东省精准医学应用学会政策研究应用分会常委



▼  点击“阅读原文”,查看精选文章

使连接产生价值用数据看见未来 

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存